浅谈人工智能与游戏思维

王目宣白驹计算机教育 2020-09-30

（图源：网络）

本文转自微信公众号“人机与认知实验室”

如何找到一种可产生意向性的形式化手段是通往人机有效融合的关键，目前的数学、物理手段还不具备完全承担这个重任的能力，因为这仅是智能——这个复杂性系统问题的两个方面而已。

下文首先探讨了人机计算系统的机理，分析了人工智能与游戏的状况，指出人工智能研究是科学技术、人文艺术和哲学宗教等主客观事物的混合体；其次对游戏中的思维规律进行了初步研究；最后对人机系统中诸多的计算与算计进行了分析，同时还对游戏、人工智能的社会影响进行了探讨。

1、引言

继2013年《PlayingAtari with Deep Reinforcement Learning》以后，Google DeepMind的alphaGo在围棋上的AI突破又一次震惊了世界！其实，从1950年香农教授提出为计算机象棋博弈编写程序开始，游戏人工智能就是人工智能技术研究的前沿，被誉为人工智能界的“果蝇”，推动着人工智能技术的发展。接下来，本文就为大家介绍一下游戏人工智能。

2、概念

如果我们知道了什么是人工智能，游戏人工智能的含义也就不言而喻了，那么什么是人工智能呢？比起人工智能更基础的概念是智能，那么什么是智能呢？权威辞书《韦氏大词典》的解释是“理解和各种适应性行为的能力”，《牛津词典》的说法是“观察、学习、理解和认识的能力”，《新华字典》的解释是“智慧和能力”，James Albus在答复Henry Hexmoor时说“智能包括：知识如何获取、表达和存储；智能行为如何产生和学习；动机、情感和优先权如何发展和运用；传感器信号如何转换成各种符号；怎样利用各种符号执行逻辑运算、对过去进行推理及对未来进行规划；智能机制如何产生幻觉、信念、希望、畏惧、梦幻甚至善良和爱情等现象”^[1]。而人工智能作为一门交叉学科和科学前沿，至今尚无统一的定义，但不同科学背景的学者对人工智能做了不同的解释：符号主义学派认为人工智能源于数理逻辑，通过计算机的符号操作来模拟人类的认知过程，从而建立起基于知识的人工智能系统，其主要代表成果是风靡一时的专家系统；联结主义学派认为人工智能源于仿生学，特别是人脑模型的研究，通过神经网络的联结机制和学习算法，建立起基于人脑的人工智能系统，其主要的代表成果是风头正劲的深度学习；行为主义学派认为智能取决于感知和行动，通过智能体与外界环境的交互和适应，建立基于“感知-行为”的人工智能系统，其主要代表成果是独树一帜的强化学习。其实这三个学派分别从思维过程、脑结构、身体三个方面对人工智能做了一个阐述，目标都是创造出一个可以像人类一样具有智慧，能够自适应环境的智能体。理解了人工智能的内涵以后，我们应该怎么衡量和评价一个智能体是否达到人类智能水平呢？目前有两个公认的界定：图灵测试和中文屋子，一旦某个智能体能够达到了这两个标准，那么我们就认为它具备了人类智能。

而游戏人工智能是人工智能在游戏中的应用和实践。通过分析游戏场景变化、玩家输入获得环境态势的理解，进而控制游戏中各种活动对象的行为逻辑，并做出合理决策，使它们表现得像人类一样智能，旨在提高游戏娱乐性、挑战智能极限。游戏人工智能是结果导向的，最关注决策环节，可以看做“状态（输入）”到“行为（输出）”的映射，只要游戏能够根据输入给出一个看似智能的输出，那么我们就认为此游戏是智能的，而不在乎其智能是怎么实现的（Whatever Works）。那么怎么衡量游戏人工智能的水平呢？目前还没有公认的评价方法，而且游戏人工智能并不是特别关心智能体是否表现得像人类一样，而是更加关心游戏人工智能的智能极限——能否战胜人类的领域专家，如：Waston在智能问答方面战胜了 Jeopardy! 超级明星 Ken Jennings 和 Brad Rutter；AlphaGo在围棋上战胜了欧洲冠军樊麾、围棋世界冠军李世石。

3、游戏机理

3.1人类的游戏机理

游戏对我们来说并不陌生，无论是小时候的“小霸王学习机”，还是五子棋、象棋等各种棋类游戏都是童年的美好回忆，但人类玩游戏的整个过程是什么样的呢？

具体过程如图1所示：首先玩家眼球捕捉显示屏上的游戏画面并在视网膜上形成影像；然后经过视觉神经传至V1区，并提取线条、拐点等初级视觉信息；初级视觉信息经过V2区传至V4区，并进一步提取颜色、形状、色对比等中级视觉信息；中级视觉信息经过PIT传至AIT，进而提取描述、面、对象等高级视觉信息并传至PFC；在PFC进行类别判断，并根据已有的知识制定决策，然后在MC的动机的促发下产生行为指令并传至响应器官（手）；响应器官执行操作；至此，玩家的游戏机制已经完成。计算机在接收到玩家的输入（键盘、鼠标等）以后，根据游戏的内部逻辑更新游戏状态，并发送至输出设备（显示屏、音箱等）展示给用户，自此计算机游戏环境更新完成。然后玩家展开下一次游戏机理，并循环直至游戏结束或玩家放弃游戏。

图1人类游戏机理

3.2计算机的游戏机理

游戏人工智能旨在创造一种熟练操作游戏的智能体，而想要让机器玩好游戏，我们就需要了解“它”玩游戏的机理，这样才能更好地改进它。

计算机的游戏机理如图2所示：首先通过某种方式（读取视频流、游戏记录等）获得环境的原始数据，然后经过去重、去噪、修正等技术对数据进行预处理，并提取低级语义信息；然后经过降维、特征表示（人工或计算机自动提取）形成高级语义信息；然后通过传统机器学习方法进行模式识别，进一步理解数据的意义；最后结合先前的经验（数据挖掘，或人工提取，或自学习产生的领域知识库）决策生成行动方案，进而执行行动改变环境，并进行新一轮的迭代。在每次迭代的过程中，智能体还可以学习新的经验和教训，进而进化成更加智能的个体。

图2计算机游戏机理

3.3游戏的一般性机理

从人类和计算机的游戏机理，我们可以总结出游戏玩家的一般性机理，如图3所示：游戏玩家可以看做是一个态势感知过程，接收原始数据作为输入，输出动作序列。其中，在内部进行态势觉察产生低级语义、态势理解形成高级认知、态势预测估计将来的态势，并根据未来态势进行游戏的威胁评估，再根据已有的经验和规则，在目标和动机的驱动下产生行动方案，从而指导游戏向更有利于玩家的方向进行，最后进入下一个循环序列。

图3游戏一般过程机理（SA图源于Endsley）

游戏的一般性机理还可以看做是一个“状态”到“动作”的映射，游戏的环境状态、玩家的目标是自变量，玩家的操作是因变量，而映射关系正是游戏一般机理的核心部分。它可以通过如神经网络这种技术来对自变量进行特征提取和表征，也可以直接使用自变量，利用公式计算获得输出值，进而映射到相应的动作。

4、里程碑

自香农发表计算机象棋博弈编写程序的方案以来，游戏人工智能已经走过了半个多世纪，在这70个春秋的风雨兼程中，无数的科学家贡献了自己的才华和岁月，所取得的成果更是数不胜数，本文罗列了游戏人工智能的重大里程碑，意欲读者能够把握游戏人工智能的研究现状，为今后的研究方向给予启示，具体如表1所示：

表 1游戏人工智能里程碑表

年份	名称	作者	描述及意义
1950	计算机象棋博弈编写程序的方案	克劳德·艾尔伍德·香农	机器博弈的创始；奠定了计算机博弈的基础。
1951	Turochamp	艾伦·麦席森·图灵	第一个博弈程序；使用了博弈树。
1956	西洋跳棋	阿瑟·塞缪尔	第一个具有自学习能力的游戏；使用了强化学习算法，仅需自我对战学习就能战胜康涅狄格州的西洋跳棋冠军。
20世纪60年代	国际象棋弈棋程序	约翰·麦卡锡	第一次使用Alpha-beta剪枝的博弈树算法；在相同计算资源和准确度的情况下，使得博弈树的搜索深度增加一倍。
1980	Pac-man	Namco公司	第一次使用了一系列的规则与动作序列及随机决策等技术；
1990	围棋弈棋程序	艾布拉姆森	第一次将把蒙特卡洛方法应用于计算机国际象棋博弈的盘面评估；
1996	Battlecruiser 3000AD	3000AD公司	第一次在商业游戏中使用神经网路；
1996	Creature	NTFusion公司	第一次引入“DNA”概念、遗传算法
1997	Deep Blue	IBM公司	第一个达到人类国际大师水平的计算机国际象棋程序；使用了剪枝的博弈树技术，以3.5:2.5战胜世界棋王卡斯帕罗夫
2011	Watson	IBM公司	第一次在智能问答方面战胜人类；使用了Deep QA技术，战胜了 Jeopardy! 超级明星 Ken Jennings 和 Brad Rutter
2013	玩“Atari 2600”的程序	DeepMind团队	第一个“无需任何先验知识”“自学习”“可迁移”的游戏引擎；使用了CNN+Q-learning的DRN技术，输入为“原始视频”和“游戏反馈”，无需任何人为设置，可从“零基础”成为7款“Atari 2600”游戏的专家。
2016	AlphaGo	Google DeepMind团队	第一个在全棋盘(19*19)无让子的情况下战胜人类专业棋手的“围棋程序”；使用了SL(有监督学习)+RL(强化学习)+MCTS(蒙特卡罗树搜索)方法，战胜了欧洲围棋冠军Fan Hui。

5、游戏人工智能实现技术

5.1有限状态机

当你设法创造一个具有人类智能的生命体时，可能会感觉无从下手；一旦深入下去，你会发现：只需要对你所看到的做出响应就可以了。^[1]有限状态机就是这样把游戏对象复杂的行为分解成 “块”或状态进行处理的，其处理机制如图4所示：首先接收游戏环境的态势和玩家输入；然后提取低阶语义信息，根据每个状态的先决条件映射到响应状态；接着根据响应状态的产生式规则生成动作方案；最后执行响应动作序列并输入游戏，进入下一步循环。由图4和图2比较可知：有限状态机方法是计算机游戏机理的一种简单实现：根据规则人为将原始数据映射到“状态”完成“特征工程和识别”，根据产生式系统将“状态”映射到响应的动作完成“决策制定”，而对游戏态势理解、评估和游戏动机透明。

图4有限状态机游戏机理

那么理论层次上的“有限状态机”又是怎么描述的呢？有限状态机是表示有限个状态以及在这些状态之间转移和动作等行为的特殊有向图，可以通俗的解释为“一个有限状态机是一个设备，或是一个设备模型，具有有限数量的状态，它可以在任何给定的时间根据输入进行操作，使得从一个状态变换到另一个状态，或者是促使一个输出或者一种行为的发生。一个有限状态机在任何瞬间只能处在一种状态”^[2]。通过相应不同游戏状态，并完成状态之间的相互转换可以实现一个看似智能的游戏智能引擎，增加游戏的娱乐性和挑战性。

有限状态机这种实现方式固然简单易懂、容易实现，但是游戏状态的划分、响应动作的制定都直接依赖于人类的先验知识，并决定了游戏的智能水平；因为游戏处理的时间和空间复杂度随着游戏状态的增多而指数型增加，所以有限状态机只适用于状态较少的游戏；有限状态机还有一个致命缺陷就是难以处理状态碰撞的情况。

5.2搜索

图5博弈树游戏机理

“人无远虑，必有近忧”，如果能够知晓未来的所有情况并进行评估，那么只需要筛选出最好的选择路径就可以完成决策。搜索在棋类游戏的智能实现中备受青睐，其中表现最优秀的是搜索树和蒙特卡洛搜索树。与游戏的一般性机理相比，搜索的游戏人工智能更关注的是预测和评估，而决策的制定只是挑选出预测的最好方式即可，如图5所示。

搜索的实现方式直观易懂，如果穷尽搜索一定可以找到游戏的全局最优值，而且它适用于一切游戏智能实现。但是搜索成功的前提是准确的态势评估和搜索深度，而态势评估一般是专家制定的，即使是使用机器学习学得的评估函数依然很难客观衡量当前态势，搜索的时空复杂度更是随着搜索的深度呈指数型增长。

5.3有监督学习

分类、拟合是有监督学习方法，也是实现游戏人工智能的重要方法，旨在在有标签的数据中挖掘出类别的分类特性。无论什么游戏，人类都是在不断的学习中才成为游戏高手的，棋类游戏更是需要学习前人经验并经过专门的训练才能有所成就。经过几千年的探索，人类积累了包括开局库、残局库、战术等不同的战法指导玩家游戏。与游戏的一般性机理相比，有监督学习更关注的是预处理、态势理解和态势预测，首先需要对数据进行去重、去噪、填充缺失值等预处理，然后分析数据并提取数据特征，再使用机器学习算法从数据中挖掘潜在信息并形成知识，实现对当前态势的直观描述或者态势到决策的映射，具体如图6所示。Google DeepMind的围棋程序AlphaGo就使用了有监督学习训练策略网络，用以指导游戏决策；它的SL策略网络是从KGS GO服务器上的30,000,000万棋局记录中使用随机梯度上升法训练的一个13层的神经网络，在测试集上达到57.0%的准确率，为围棋的下子策略提供了帮助。^[3]

图6有监督学习机理

在无人工参与的情况下，有监督学习能够从数据中自主学习成为游戏高手，而且通过不同的有标签数据训练，同一模型无需改动或者做极小改动就可以适用于不同的游戏。但是，“rubbish in,rubbish out”，数据的质量和数量直接决定了有监督学习模型的性能，而且有监督模型一般存在欠拟合和过拟合的现象，有的算法还极易陷入局部最优解，除此之外模型参数的选取也直接决定了智能体的智能水平。

5.4遗传算法

遗传算法是进化算法的一种，它模拟达尔文进化论的物竞天择原理，不断从种群中筛选最优个体，淘汰不良个体，使得系统不断自我改进。游戏的不同智能体通过遗传算法不断迭代进化，可以逐渐从一个游戏白痴自主进化成为游戏高手，而无需依赖人类知识的参与。

图7遗传算法游戏机理

在系统中，每个个体是一个游戏智能体（一种游戏智能的实现方式，能根据游戏输入产生决策输出），并通过某种映射转化为一串遗传信息，这串信息代表了我们所要优化游戏智能体的全部特征。如图7所示，与游戏的一般性机理对比，遗传算法更关注决策指定，旨在通过一定数量的游戏智能体（可能是随机生成的，也可能是人为指定的，也可能是机器学习学得的）自我进化出一个具有高超游戏水平的游戏智能体，从而实现游戏态势到应对方案的正确映射。遗传算法维持一个由一定数量个体组成的种群，每一轮都需要计算每个个体的适应度，然后根据适应度选出一定数量存活的个体，同时淘汰掉剩余落后的个体。随后，幸存的个体将进行“繁殖”，填补因为淘汰机制造成的空缺，从而维持种群的大小。所谓的繁殖，就是不同个体组合自己本体的一部分形成新的副本。然而为了实现进化，必须要有模仿基因突变的机制。因此在复制副本的时候也应当使得遗传信息产生微小的改变。选择-繁殖-突变这样的过程反复进行，就能实现种群的进化。

遗传算法是一种与问题领域无关的自学习算法，可以在无人为参与的情况下实现游戏智能，而且遗传算法可扩展性强，可以组合其他游戏智能实现技术获得更加智能的游戏个体。但是遗传算法一般只能获得满意解，而不能获得最智能的游戏智能体；而且参数、适应性函数的确定需要不断尝试，否则会严重影响游戏个体的智能性；另外，遗传算法求解速度很慢，要得到游戏较智能的个体需要较多的训练时间。

5.5强化学习

一无所知的游戏智能体通过不断地与环境交互来改进自己，进而趋利避害，这就是强化学习。如图8所示，与游戏的一般性机理相比，强化学习更关注决策制定，它内部维护一个策略函数，通过对游戏态势做出决策从而获得反馈，并不断改进策略函数使得针对环境态势、自身决策获得最大报酬值，让游戏结果向着有利于游戏智能体的方向发展，不断迭代这个过程就可以获得态势到决策的最优映射。

图8强化学习游戏机理

强化学习有着坚实的数学基础，也有着成熟的算法，在机器人寻址、游戏智能、分析预测等领域有着很多应用；而且强化学习是一种与问题领域无关的自学习算法，可以在无任何人为参与的情况下实现游戏智能。但是强化学习对于连续、高维的马氏决策问题将面临维数灾难，而且学习效率不高、在理论上的收敛性也难以保证。^[4]

5.6DRN

DRN是GoogleDeepMind在“Playing Atari with Deep Reinforcement Learning”中结合深度学习和强化学习形成的神经网络算法，旨在无需任何人类知识，采用同一算法就可以在多款游戏上从游戏白痴变成游戏高手。如图9所示，与游戏智能的一般性机理相比，DRN将整个处理流程集成于一个神经网络，自主实现逐层抽象，并生成决策方案。首先使用数据预处理方法，把128色的210*160的图像处理成灰度的110*84的图像，然后从中选出游戏画面重要的84*84的图像作为神经网络的输入；接着使用CNN自动进行特征提取和特征表示，作为BP神经网络的输入进行有监督学习，自动进行游戏策略的学习。^[5]

DRN在Atari游戏上的应用证明了它的成功：击败了人类顶级玩家。但是DRN底层使用了CNN做特征提取，使得它更适用于以二维数据为输入的游戏。

图9 DRN游戏机理

5.7深度学习+强化学习+博弈树

GoogleDeepMind的AlphaGo使用值网络用来评价棋局形式，使用策略网络用来选择棋盘着法，使用蒙特卡洛树预测和前瞻棋局，试图冲破人类智能最后的堡垒。策略网络使用有监督学习训练+强化学习共同训练获得，而值网络仅使用强化学习训练获得，通过这两个网络结构总结人类经验，自主学习获得对棋局的认知；然后使用蒙特卡洛树将已经学得的知识应用于棋局进行预测和评估，从而制定着法的选择。

图10 AlphaGo的游戏机理

6、游戏人工智能的复杂性

继图形和交互技术之后，人工智能成为游戏科技发展的瓶颈，人们不再单纯追求更真实、更美丽的画面，而是更人性、更智能的游戏伙伴（对手）。

计算机思考问题的过程其实就是数值计算的过程，游戏人工智能的实现需要坚实的数学理论。最好的浅层机器学习算法SVM，其求解目标在于确定一个二分类的超平面，以最大化样本在特征空间上的间隔，其中涉及线性空间到高维空间的映射、KKT最优化算法等；风头正劲的深度神经网络，无非就是在海量数据的基础上拟合出一个非常复杂的函数来实现特征学习、分类拟合，其中涉及卷积计算、蒙特卡洛方法、最优化求解等；在自主决策独树一帜的强化学习其实就是一个马尔科夫决策过程，通过不断的迭代来不断更新内部的策略函数，最终实现自主决策，其中涉及随机过程、最优化求解等；简单而广泛使用的决策树，其分支依据有信息增益率、Gini准则等，其中涉及信息论等。在高级的人工智能中数学无处不在，也从根本上制约着人工智能的发展，它的每一次突破都能引发人工智能的新一波热潮。

计算机思考问题的过程其实就是移位、与或非等计算的过程，所以任何人工智能算法的成功都依赖于大量的计算。震惊世界的AlphaGo最后一个版本共使用了40个搜索线程，48个CPU和8个GPU；多台机器实现的分布式AlphaGo版本共使用了40个搜索线程，1202个CPU和176个GPU。^[3]谷歌大脑运用深度学习的研究成果，使用 1000 台电脑创造出包含 10 亿个连接的“神经网络”，使机器系统自动学会识别猫。^[6]海量数据的处理也使得并行计算框架Hadoop、Spark等在人工智能中变得炙手可热。

除坚实的数学理论、高效的计算机计算以为，人工智能研究的难点是对认知的解释与建构，而认知研究的关键问题则是自主和情感等意识现象的破解。尽管意识问题如此重要，非常令人啼笑皆非的是：无论过去还是现在，一旦涉及到意识问题，大家不是缄口不提，就是敬而远之，避之唯恐不及。究其因，不外乎意识的变化莫测与主观随意等特点严重偏离了科学技术的逻辑实证与感觉经验验证判断，既然与科学技术体系相距较远，自然就不会得到相应的认同与支持了！然而，最近科技界一系列的前沿研究正悄悄地改变着这个局面：研究飘忽不定的意识固然不符合科技的尺度，那么在意识前面加上情境（或情景）二字呢？人在大时空环境下的意识是不确定的，但“格物致知”一下，在小尺度时空情境下的意识应该有迹可循吧！其中1988年Mica Endsley 就提出了Situation Awareness（SA）概念框架（详细了解可参见文章源自公众微信号：人机与认知实验室）: “…the perception of the elements in the environment within a volume oftime and space, the comprehension of their meaning, and the projection of theirstatus in the near future.”^[7]（就是在一定的时间和空间内对环境中的各组成成分的感知、理解，进而预知这些成分的随后变化状况”）。但这只是个定性分析概念模型，其机理分析与定量计算还远远没有完善。

7、游戏人工智能的社会影响

随着计算机硬件水平和软件技术的提升，中国的游戏产业迅猛发展，人工智能在游戏中的应用也更加广泛与完善，游戏的可玩性大幅增强，而游戏人工智能的发展也深受社会的影响，主要体现在以下四个方面：

a. 增强游戏的人性化

随着社会老龄化程度的加深，空巢老人越来越多，已经成为一个不容忽视的社会问题；城市中独生子女数量较多，父母工作繁忙致使他们平时缺少玩伴，而人性化的游戏智能能起到陪伴、娱乐的作用，如果使用得当的话，还能寓教于乐。普通人在与计算机游戏对战时，并不希望自己面对的是一个冷冰冰的机器，而是有喜有忧、患得患失的有血有肉的玩家，而计算机的游戏水平也应该与玩家水平相近，既不能让玩家因无法胜利而沮丧，也不能让玩家容易取胜而感到无聊。所以在设计这种游戏智能时除了高超的游戏水平之外，还要让游戏智能人性化，并调节自己的水平以适应玩家。

b. 挑战智能极限

近十年来，电子竞技在我国从一个被所有人误解的边缘化产业，逐步变成了一个成熟、庞大的新兴产业链条，电子竞技正在逐渐成长为一个不可忽视的庞大产业。其实自香农提出为计算机象棋博弈编写程序以来，追求更强、更智能游戏智能体的脚步就从未停止，战胜世界冠军李世石的AlphaGo更是被认为突破了人类最后的堡垒。设计这种游戏智能时，更关注的是提高游戏智能体的游戏水平，而不关注是否类人化，所以更像是不通世事的“书呆子”。

c. 不完全信息决策

棋类等大多数游戏通常是有限状态、有规则的完全信息条件下的博弈，而像军事等现实世界具有高维、动态、不确定性的特点，是无规则的不完全信息下的决策。所以人们也十分关心如何将游戏智能迁移运用到现实世界中，其中DeepMind团队在战胜李世石后转战星际争霸，试图探索在状态更多、规则性更弱、信息不完全条件下的博弈；更有甚者试图将AlphaGo技术应用到兵棋推演、军事空战决策中。

d. 自主学习

与深蓝、Watson不同，DeepMind团队的研究成果除了高超的游戏技能以外，还在于其自主学习的能力和可迁移的能力，这也是它能够大放异彩的原因。人们一直希望建立一种游戏智能框架：它无需任何人为参与就能在不同的游戏中通过自主学习成为游戏高手，其中DeepMind的DRN技术在无需人为参与、无需调整算法框架的情况下，只通过自主学习就能精通7种Atari 2600游戏，甚至在某些游戏中超过人类玩家。

8、总结

与模糊人类和机器的边界不同，游戏人工智能更关注挑战智力极限，表征是游戏战胜人类最强者；与教导人类成为领域专家不同，游戏人工智能更关注培育自学习能力的智能体，表征是无经验自主学习；所以当前最先进的两个游戏引擎均使用了深度学习和强化学习两方面的知识，旨在培育具有自学习能力的高智能个体。

当前大家最关注的莫过于2016年3月AlphaGo与李世石的围棋之战。现在的1:4人机比分是否表示机器已经突破人类最后的堡垒呢？是否表示达到智能极限呢？游戏人工智能下一步的研究关注点又应该是什么呢？我认为机器即使战胜李世石也没有达到人类智能的极限，与记忆和速算一样，搜索与前瞻的能力也不能代表人类智能，人类还有情感、有思想、能快速学习等能力，所以AlphaGo战胜了李世石也只是在某个领域里面比人类更强而已；游戏人工智能不能使用图灵测试、中文屋子来衡量人工智能的程度，因为人类在游戏（特别是棋类游戏）上的智能并不突出，因为人脑的复杂度有限，并不能计算游戏的最优值，只是在能力范围内做出较优的决策，所以我认为“游戏人工智能的关注点应该是：同一游戏引擎作为双方对战，总是同一方（先手或后手）取胜，而且能够战胜人类最强者”。所以即使AlphaGo战胜李世石，那么棋类智能仍有探索的空间：游戏决策的最优值！

9、参考文献

[1] (美)NilsJ.Nilsson著,郑扣根,庄越挺译. 人工智能[M].机械工业出版社, 2007

[2] (美)MatBuckland著,罗岱等译. 游戏人工智能编程案例精粹[M].人民邮电出版社, 2008

[3] D Silver，A Huang，CJ Maddison，A Guez，LSifre, Mastering the game of Go with deep neural networks and tree search. 《Nature》, 2016, 529(7587):484-489

[4] 陈学松，杨宜民, 强化学习研究综述. 《计算机应用研究》, 2010, 27(8):2834-2838

[5] V Mnih，KKavukcuoglu，D Silver，A Graves,Playing Atari with Deep Reinforcement Learning. 《ComputerScience》, 2013

[6] 涂兰敬, 谷歌的人工智能. 中国计算机报.2015.01.05,第 007 版

[7] Endsley M R. Situationawareness in aviation systems[M]. In Garland D J, Wise J A, Hopkin V D.Handbook of aviation human factors. Mahwah, NJ: Erlbaum, 1999: 257-276

[8] John D. Lee, Alex Kirlik,The oxford handbook of cognitive engineering[M].Oxford：Oxford UniversityPress，2013:1-218

[9] José Luis Bermúdez，Cognitive Science[M]，Cambridge ：Cambridge University Press，2010:1-360

[10] 邹会来, 人工智能技术在游戏开发中的应用与研究. 浙江师范大学, 2011

[11] 刘伟,袁修干.人机交互设计与评价 [M].北京:科学出版社,2008: 1-68.

[12] 马永杰,云文霞, 遗传算法研究进展. 《计算机应用研究》, 2012, 29(4):1201-1206

[13] 于永波, 基于蒙特卡洛树搜索的计算机围棋博弈研究. 大连海事大学, 2015

【本文发表在《科学与社会》2016年第6卷第3期】

（完）

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

套牢是个好事，没被套牢的玩家容易跑

湖南60岁富婆沉迷打牌，输掉1个多亿，丈夫还清后离婚，她却说：你这是阴谋

广东女子不想上班坐街边乞讨，因长相好看被路人投喂，知情人：又懒又馋！！